p4 prosperLoanData analysis by hawli

单变量分析

数据集的结构

贷款数据集有113937条数据,共81个变量,变量的结构如下:

1.贷款人身份信息

2.贷款人信用历史借贷信息

3.贷款信息

4.贷款人在prosper上面的借贷信息

在此数据集中,有那些特征变量是你的感兴趣的点?

在此数据集中主要感兴趣的特征有:

1.贷款类型分析

从该图看出,贷款大部分用于债务,还有大量客户选择了“不提供”和“其它”,此项数据有待考究。

2.贷款状态:年贷款金额分析

由上图看出,贷款金额范围在0~$35000,贷款金额的分布偏左,贷款金额多数集中在$10000以内。

3.贷款期数分布

贷款期数为1-5年,大部分贷款期数为3年,少部分为5年。

4.贷款利率分布

贷款利率集中在0.15~0.2之间,峰值出现在0.15,0.18,还有一部分人集中在0.33。

5.贷款人信息:地区/收入/房产/就业状态

贷款人集中在加利福尼亚区,由于prosper是加州的公司,数据也比较合理。然后分别是得克萨斯,纽约,佛罗里达,伊利诺伊。这几个州都是美国人口基数大的州,因此申请人数居多也是正常。

6.贷款人信息:收入

贷款人大多数收入分布在$25000~$70000美元之间,但是还是有一部分人没有提供收入范围,存在一定的贷款风险。

7.贷款人信息:就业状态

大部分贷款客户处于在职状态,应该具有偿还贷款的能力。

8.贷款人信用评分及等级

上图可以看出,客户的信用等级集中在700分左右,根据时间划分后,整体的信用等级分布稳定。

9.贷款人资产负债比

由上图可以看出,贷款人的资产负债比例集中在左侧,也就是呈负偏态分布,大部分集中在0~0.25左右,相对较稳定。

10.贷款人欠款分析

由上图可以看出,贷款客户大部分未拖欠贷款,而从历史数据7年来看,与现有的贷款拖欠数量分布类似。

还有哪些变量能够支撑你感兴趣的变量?

1.贷款收益及损失情况:

由上图可知,贷款年利率,有效收益率和预估回报率分布类似,并未出现异常分布情况,为贷款利率的分析提供了支持。

2.贷款人历史信息

由上图可知,贷款风险评分呈正态分布。

在已有的变量中,是否创建了新的变量?

1.增加了贷款拖欠率,可以了解贷款拖欠的比例情况;

2.增加了客户信用评分,可以看出客户的信用评分;

3.区分了peopser的新老客户,可以针对新老客户进行分析,应用不同的策略。

在分析过程中是否有异常分布,是否对数据进行了清洗和整理,或者改变了数据的结构?

1.贷款类型存在疑惑,大部分客户贷款用于债务,而还有一部分客户选择了没有提供类型和其它类型选项,我们无从得知贷款真正用于何处,因此此选项不具备参考价值。

2.09年之前的信用等级评分AA级人数多于A级,按照等级来区分,两头的数据量应该分布较少,不过09年以后进行了调整,加上样本量较大,因此分布较为均衡。

3.对部分数据的日期进行整理,转换成日期格式,并且新增了拖欠率和客户评分,对新老客户进行了区分,方便后期分析使用。

双变量分析

描述不同观测主变量之间的对比关系

1.贷款人收入与贷款金额

贷款人月收入与贷款金额之间相关系数

## 
##  Pearson's product-moment correlation
## 
## data:  pp$StatedMonthlyIncome and pp$LoanOriginalAmount
## t = 69.353, df = 113940, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1956816 0.2068243
## sample estimates:
##       cor 
## 0.2012595

从上图可以看出,随着贷款人月收入的提高,贷款金额也相对应提高,但相关性不强。

2.1 房产与贷款金额

2.2房产与客户信用评分

由此图可以看出,有房的人信用评分更高,能贷更多金额。

3.信用等级和贷款金额(2009年前后对比)

由上面两个图可以看出,贷款金额随着信用等级的降低而降低。但是09年之前的数据显示,信用等级B贷款均值最高,可能是09年之前的评级有部分问题,而在09年之后做了改动,数据显示正常,等级越高,贷款金额越高。而从两年的数据我们也可以看出,09年之后的贷款金额高于09年之前。

4.贷款期限与贷款金额

由此图我们可以看出,贷款金额越高,客户越倾向于选择时间长的分期。

5.2009年之前贷款随年份的均值变化

由上图我们可以看出,06年~09年的贷款均值是先上升后下降,有必要了解这几年的贷款背景。

6.2009年之后贷款随年份的均值变化

由上图我们可以看出,在09年之后,贷款均值随年份的升高而升高。

7.信用评分与贷款利率(2009年前后对比)

由以上两个对比图我们可以看出,贷款利率随信用评分的增加而降低,而在09年之后,取消了对信用评分低于600分的客户发放贷款。

8.贷款拖欠率与贷款金额

## 
##  Pearson's product-moment correlation
## 
## data:  pp$TradesDelinquent..percentage. and pp$LoanOriginalAmount
## t = -85.13, df = 106390, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2581515 -0.2469002
## sample estimates:
##        cor 
## -0.2525344

由上图可以看出,贷款拖欠率越高,贷款金额越少。

其它变量之间的关系

1.2009年之后新老客户信用分数对比

## 
##  Pearson's product-moment correlation
## 
## data:  pp$TradesDelinquent..percentage. and pp$LoanOriginalAmount
## t = -85.13, df = 106390, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2581515 -0.2469002
## sample estimates:
##        cor 
## -0.2525344

由上图可以看出,新客户比老客户信用评分更高。

强相关的发现

1.2009年之前客户信用评分和贷款利率相关

## 
##  Pearson's product-moment correlation
## 
## data:  pp1$CreditScore and pp1$BorrowerRate
## t = -175.17, df = 113340, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.4661358 -0.4569730
## sample estimates:
##        cor 
## -0.4615667

2.2009年之后客户信用评分和贷款利率相关

## 
##  Pearson's product-moment correlation
## 
## data:  pp2$CreditScore and pp2$BorrowerRate
## t = -172.11, df = 84851, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.5136517 -0.5036768
## sample estimates:
##        cor 
## -0.5086813

由以上分析可以看出,客户信用评分和贷款利率高相关,09年相关系数为0.62,09年之后为0.51。

多变量分析

描述多个变量之间的关系,并说明跟感兴趣的特征的相关性。

1.2009年以前贷款利率,贷款金额和信用等级的关系

2.2009年以后贷款利率,贷款金额和信用等级的关系

由以上两个图可以看出,09年以前的贷款金额为0~$25000,而09年以后增加贷款金额,部分金额在$25000以上,而从利率的角度来看,09年以后的利率普遍比09年以前低,应该是改变了部分政策,而且贷款金额越高,利率越低。另外我们可以看出信用等级跟贷款利率的关系越来越紧密。

3.2009年以后贷款利率,贷款金额和风险评分的关系

由上图可以看出,贷款评分越高的人,贷款利率越有可能低于0.15,而且贷款风险越高,越有可能贷到$25000以上的贷款,贷款评分越高,也就是贷款风险越低的人,贷款利率越低。

4.新老客户在不同年份贷款金额对比

由上图看出,新老客户的贷款金额差不多,但是在09年之后,贷款中位数基本上都很少超过$15000,而07~08年之间有少部分人获得高额贷款,但是在09年之后调整过来。

5.贷款时间,贷款金额跟房产的关系对比

由上图可以看出,有房的人普遍比没房的人贷款金额高,有少部分人高出一倍以上,而而且不受政策的影响。

在这些特征中有没有什么惊奇的发现?

1.09年政策调整之后,开放了$25000以上的贷款金额,信用等级较高的客户可享受此权利。

2.政策的更改并未影响具有房产的人的贷款优势。

采用了什么模型来验证数据集

我们关注的是贷款利率受什么因素的影响,在09年前后政策是否进行了哪些方面的调整,因此采用多元线性回归模型。

1.2009年之前的模型拟合度分析

## 
## Calls:
## m1: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = pp1)
## m2: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade, 
##     data = pp1)
## m3: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade + 
##     LoanOriginalAmount, data = pp1)
## m4: lm(formula = I(BorrowerRate) ~ I(CreditScore) + CreditGrade + 
##     LoanOriginalAmount + StatedMonthlyIncome, data = pp1)
## 
## ===================================================================
##                           m1         m2         m3         m4      
## -------------------------------------------------------------------
##   (Intercept)          0.554***   0.192***   0.170***   0.169***   
##                       (0.002)    (0.011)    (0.011)    (0.011)     
##   I(CreditScore)      -0.001***  -0.000      0.000      0.000      
##                       (0.000)    (0.000)    (0.000)    (0.000)     
##   CreditGrade.L                   0.141***   0.167***   0.169***   
##                                  (0.011)    (0.010)    (0.010)     
##   CreditGrade.Q                  -0.044***  -0.040***  -0.040***   
##                                  (0.006)    (0.005)    (0.005)     
##   CreditGrade.C                  -0.037***  -0.037***  -0.036***   
##                                  (0.005)    (0.004)    (0.004)     
##   CreditGrade^4                  -0.016***  -0.013***  -0.013***   
##                                  (0.003)    (0.003)    (0.003)     
##   CreditGrade^5                   0.002      0.003      0.003*     
##                                  (0.002)    (0.002)    (0.002)     
##   CreditGrade^6                   0.009***   0.009***   0.009***   
##                                  (0.001)    (0.001)    (0.001)     
##   CreditGrade^7                   0.004***   0.005***   0.005***   
##                                  (0.001)    (0.001)    (0.001)     
##   LoanOriginalAmount                         0.000***   0.000***   
##                                             (0.000)    (0.000)     
##   StatedMonthlyIncome                                  -0.000*     
##                                                        (0.000)     
## -------------------------------------------------------------------
##   R-squared                 0.2        0.5        0.5        0.5   
##   adj. R-squared            0.2        0.5        0.5        0.5   
##   sigma                     0.1        0.1        0.1        0.1   
##   F                     30684.3     3564.2     3510.0     3160.3   
##   p                         0.0        0.0        0.0        0.0   
##   Log-likelihood       146748.6    43394.1    44141.6    44144.9   
##   Deviance                498.2       77.9       73.9       73.8   
##   AIC                 -293491.3   -86768.3   -88261.1   -88265.7   
##   BIC                 -293462.4   -86685.7   -88170.3   -88166.7   
##   N                    113346      28362      28362      28362     
## ===================================================================

2.2009年之后的模型拟合度分析

## 
## Calls:
## m5: lm(formula = I(BorrowerRate) ~ I(CreditScore), data = pp2)
## m6: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha., 
##     data = pp2)
## m7: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. + 
##     LoanOriginalAmount, data = pp2)
## m8: lm(formula = I(BorrowerRate) ~ I(CreditScore) + ProsperRating..Alpha. + 
##     LoanOriginalAmount + StatedMonthlyIncome, data = pp2)
## 
## =======================================================================
##                               m5         m6         m7         m8      
## -----------------------------------------------------------------------
##   (Intercept)              0.767***   0.174***   0.174***   0.174***   
##                           (0.003)    (0.001)    (0.001)    (0.001)     
##   I(CreditScore)          -0.001***   0.000***   0.000***   0.000***   
##                           (0.000)    (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha..L             0.224***   0.224***   0.224***   
##                                      (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha..Q            -0.001***  -0.001***  -0.001***   
##                                      (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha..C            -0.014***  -0.014***  -0.014***   
##                                      (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha.^4            -0.007***  -0.007***  -0.007***   
##                                      (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha.^5            -0.003***  -0.003***  -0.003***   
##                                      (0.000)    (0.000)    (0.000)     
##   ProsperRating..Alpha.^6             0.003***   0.003***   0.003***   
##                                      (0.000)    (0.000)    (0.000)     
##   LoanOriginalAmount                             0.000      0.000*     
##                                                 (0.000)    (0.000)     
##   StatedMonthlyIncome                                      -0.000***   
##                                                            (0.000)     
## -----------------------------------------------------------------------
##   R-squared                     0.3        0.9        0.9        0.9   
##   adj. R-squared                0.3        0.9        0.9        0.9   
##   sigma                         0.1        0.0        0.0        0.0   
##   F                         29620.2   129092.7   112957.6   100424.9   
##   p                             0.0        0.0        0.0        0.0   
##   Log-likelihood           112513.2   203981.8   203982.7   203990.2   
##   Deviance                    350.3       40.6       40.6       40.6   
##   AIC                     -225020.4  -407945.6  -407945.5  -407958.4   
##   BIC                     -224992.4  -407861.4  -407852.0  -407855.6   
##   N                         84853      84853      84853      84853     
## =======================================================================

从以上结果可以看出,09年之前的模型与09年之后的模型存在差异,因为模型p<0.01,显著,因此可以进行对比。我们可以看出,09年之后贷款利率受信用评分的影响变小了,而受其它数据,如信用等级,贷款人月收入,贷款金额的影响变大。


最终图片展示及描述

图一:2009年之后贷款随年份的变化对比

图一描述

2009年之后,贷款金额逐年提升,相比2010年,2014年贷款均值已超过$10000美元。可以看出贷款需求逐年增加。

图二:贷款利率与客户信用评分的关系对比

图二描述

由以上对比图可以看出,2009年之后取消了对信用评分低于600分以下的客户发放贷款。而从信用评分600分及以上的客户,我们可以看出,信用评分分值越高,贷款利率越低。

图三:2009年之后贷款利率,贷款金额和风险评分的关系对比

图三描述

由上图可以看出,贷款分数越高,风险越小的客户,贷款金额越高。从贷款金额的坐标看来,金额高于$25000的贷款,基本上只发放给贷款分数高的客户,而从贷款利率的坐标来看,可以看出大部分贷款评分低的客户,贷款利率都比较高,集中在0.2以上,而贷款评分高的客户,贷款利率集中在0.1以下。


项目反思

  • 我在分析中的哪个阶段遇到了困难?

在分析前期,对数据结构的理解就产生了困难,首先由于变量很多,需要一个个理清变量的定义及数据集的背景。

其次,要选定自己感兴趣的变量,在对数据完全陌生的情况下进行探索,因此需要从多个变量入手,先整理部分变量,进行转换及排序,确定其描述性统计信息,然后再选择几个关注点进行分析,从整体上看,选择了贷款人背景,贷款信息和贷款人的信用历史来进行分析,然后挑出了贷款金额、贷款利率和贷款信用等级作为重点,其次还创建了新变量,考察贷款拖欠率对贷款的影响,中间还关注了贷款人房产,月收入和信用评分等背景是否对贷款金额产生影响。

而在分析过程中,不仅要通过不同的图形去挖掘数据的信息,还要在图形的对比中看是否有潜在的趋势。

最终的难点在于,进行模型建构的时候,并未能很好地选择模型的影响因素,只能凭部分直觉去建构,需要在后续探索中改善。

  • 我在哪个阶段取得了成功?

在双变量分析的时候,慢慢探索两两变量之间的关系,发现了一些对比趋势后,才能更佳清晰自己的分析结构,从而修正自己之前的直觉。

  • 将来工作中还可以通过哪些方式使分析更丰富(如:附加数据和分析)?

第一,由于分析只选定了部分变量,并未充分地考虑其它变量对研究主题的影响,因此后续可以增加其它变量来挖掘其内在的关系;

第二,模型只选定了多元线性回归模型进行拟合,并未选择其它方法提升模型的建构能力。后期可采用其它模型分析方法来丰富分析效果。

第三,此分析方式为静态分析,并未包含动态交互,可根据后期课程学习来提升可视化水平。

参考资料:

https://zhuanlan.zhihu.com/p/27288744

http://www.pd17.com/pd/241_2.html